Text copied to clipboard!
Título
Text copied to clipboard!Ingeniero de Confiabilidad del Sitio (SRE)
Descripción
Text copied to clipboard!
Estamos buscando un Ingeniero de Confiabilidad del Sitio (SRE) altamente motivado y experimentado para unirse a nuestro equipo de tecnología. El candidato ideal será responsable de garantizar la disponibilidad, escalabilidad y eficiencia de nuestros sistemas y servicios críticos. Como SRE, trabajarás en estrecha colaboración con equipos de desarrollo, operaciones y seguridad para diseñar, implementar y mantener infraestructuras resilientes y automatizadas.
El rol requiere una mentalidad orientada a la ingeniería de software aplicada a problemas de infraestructura y operaciones. Deberás identificar cuellos de botella, automatizar tareas repetitivas, implementar soluciones de monitoreo y respuesta ante incidentes, y participar en la mejora continua de nuestros sistemas. Además, serás responsable de establecer y mantener acuerdos de nivel de servicio (SLA), objetivos de nivel de servicio (SLO) y presupuestos de error (error budgets).
Tus responsabilidades incluirán la creación de herramientas internas, la implementación de pipelines de CI/CD, la gestión de configuraciones, la supervisión de métricas clave y la respuesta proactiva a incidentes. También colaborarás en revisiones post-mortem para identificar causas raíz y prevenir recurrencias. Este puesto es ideal para alguien con fuertes habilidades técnicas, pasión por la automatización y un enfoque proactivo hacia la confiabilidad del sistema.
Buscamos a alguien con experiencia en entornos de nube (como AWS, GCP o Azure), conocimientos sólidos de sistemas Linux, redes, contenedores (Docker, Kubernetes) y lenguajes de programación como Python, Go o Bash. La capacidad de trabajar en equipo, comunicarte eficazmente y adaptarte a un entorno dinámico es esencial para el éxito en este rol.
Responsabilidades
Text copied to clipboard!- Diseñar e implementar soluciones de alta disponibilidad y tolerancia a fallos.
- Automatizar tareas operativas repetitivas mediante scripts y herramientas.
- Monitorear sistemas y servicios para detectar y resolver problemas proactivamente.
- Colaborar con equipos de desarrollo para mejorar la confiabilidad del software.
- Gestionar pipelines de integración y entrega continua (CI/CD).
- Establecer y mantener métricas de rendimiento, SLA, SLO y presupuestos de error.
- Participar en la respuesta a incidentes y realizar análisis post-mortem.
- Optimizar el uso de recursos en la infraestructura para mejorar la eficiencia.
- Implementar y mantener herramientas de observabilidad como Prometheus, Grafana o ELK.
- Documentar procesos, arquitecturas y procedimientos operativos.
Requisitos
Text copied to clipboard!- Título universitario en Ingeniería Informática, Sistemas o campo relacionado.
- Experiencia previa como SRE, DevOps o en roles similares.
- Conocimientos sólidos de sistemas operativos Linux y redes.
- Experiencia con herramientas de automatización como Ansible, Terraform o Puppet.
- Dominio de lenguajes de scripting como Python, Bash o Go.
- Experiencia con plataformas de nube como AWS, GCP o Azure.
- Conocimiento de contenedores y orquestadores como Docker y Kubernetes.
- Habilidad para diagnosticar y resolver problemas complejos de sistemas.
- Capacidad para trabajar en equipo y comunicarse eficazmente.
- Inglés técnico intermedio o avanzado.
Posibles preguntas de la entrevista
Text copied to clipboard!- ¿Cuánta experiencia tienes trabajando como SRE o en un rol similar?
- ¿Qué herramientas de monitoreo y observabilidad has utilizado?
- ¿Has trabajado con contenedores y Kubernetes? Describe tu experiencia.
- ¿Cómo manejas la respuesta a incidentes críticos?
- ¿Qué estrategias utilizas para mejorar la confiabilidad de un sistema?
- ¿Tienes experiencia automatizando tareas operativas? ¿Con qué herramientas?
- ¿Has trabajado con pipelines de CI/CD? ¿Qué herramientas has usado?
- ¿Cómo defines y gestionas los SLA y SLO en tus proyectos?
- ¿Qué lenguajes de programación o scripting dominas?
- ¿Tienes experiencia trabajando en entornos de nube pública?